ساخت پیکره تطبیقی فارسی-انگلیسی و استخراج جملات موازی از آن
پایان نامه
- وزارت علوم، تحقیقات و فناوری - دانشگاه الزهراء - دانشکده فنی
- نویسنده سیده رویا محمدی
- استاد راهنما نوشین ریاحی
- تعداد صفحات: ۱۵ صفحه ی اول
- سال انتشار 1391
چکیده
کیفیت بسیاری از کاربردهای پردازش زبان های طبیعی مانند سیستم های ترجمه ی ماشینی به پیکره های موازی که برای آموزش آنها استفاده می شود، بسیار وابسته است. بنابراین یکی از نیازهایی که در این حوزه وجود دارد، تهیه ی پیکره های موازی با حجم داده ای بالا و محتوای متنوع می باشد. مشکلی که در استفاده از پیکره های موازی وجود دارد، حجم اندک اطلاعات موازی موجود بر روی منابع اطلاعاتی است. در سال های اخیر، تلاش های زیادی برای استخراج داده ی موازی از منابع غیرموازی یا پیکره های تطبیقی انجام شده است. مزیت این پیکره ها نسبت به پیکره های موازی، حجم بالای اطلاعاتی آنها می باشد. از طرفی، این داده ها را می توان به راحتی از طرق مختلف مانند صفحات وب بدست آورد. مثلاً یکی از منابع موجود برای استخراج پیکره های تطبیقی استفاده از شبکه های خبری می باشد. با وجود کاربردهای پیکره-های تطبیقی، کار زیادی در این زمینه در زبان فارسی انجام نشده است. در این پژوهش، نخست به ساخت پیکره ی تطبیقی بزرگ فارسی- انگلیسی می پردازیم. برای ایجاد این پیکره از اسناد خبری روزنامه های همشهری و بی بی سی استفاده کرده ایم و از اسناد بدست آمده، معیارهایی نظیر تعداد کلمات کلیدی مشترک، اسامی خاص یکسان، عناوین مشابه و فاصله ی تاریخ انتشار دو خبر را استخراج نمودیم. سپس معیارهای بدست آمده از مرحله ی قبل را براساس میزان اهمیتشان در ترازبندی متون، با وزن های مختلف با یکدیگر ترکیب کردیم. با توجه به نتایج بدست آمده، مشاهده می-شود که این پیکره از نظر کیفی و کمی از تنها پیکره ی تطبیقی تولید شده در زبان فارسی بهتر می باشد. در گام بعد، به استخراج جملات موازی از پیکره ی تطبیقی ساخته شده پرداختیم. بدین منظور، پس از استخراج متن های منطبق با یکدیگر، مجموعه ای از جملات را ایجاد کرده و با استفاده از معیارهای طول و تعداد هم پوشانی کلمات، جملاتی را که احتمال موازی بودنشان بسیار کم بود، تصفیه کردیم. پس از تصفیه، به استخراج ویژگی های لغوی، طولی و هم پوشانی لغات از جملات منتخب پرداختیم و در نهایت با استفاده از جملات آموزشی پیکره ی موازی موجود و ویژگی های استخراج شده، با به کارگیری یک طبقه-بند، جملات منتخب را در دو دسته ی موازی و غیرموازی دسته بندی کردیم.
منابع مشابه
استخراج خودکار جملات همتراز انگلیسی-فارسی از متون مقایسهای با بهرهبرداری از اطلاعات نحوی
پیکرههای موازی همواره از غنیترین منابع در مباحث پردازش زبان طبیعی محسوب میشوند. این نوع پیکرهها شامل متون ترجمهشدۀ دو یا چند زبان هستند که در سطوح مختلف کلمه، عبارت و یا جمله همترازشدهاند. علیرغم کاربرد فراوان این نوع پیکرهها در مطالعات مختلف از جمله پژوهشهای زبانی، ترجمة ماشینی آماری و سامانههای خودکار بازیابی اطلاعات میان زبانی، متأسفانه همواره پژوهشگران با کمبود پیکرههای موازی مو...
متن کاملساخت پیکره ی دوزبانه موازی انگلیسی- فارسی و کاربرد آن در سامانه حافظه ترجمه (مبحثی در زبانشناسی پیکره ای)
در حال حاضر برونداد سامانه های ترجمه ماشینی نیاز به پس ویرایش دارد. در ترجمه ماشینی خودکار امکان دخالت کاربر حین کار وجود ندارد و مترجم پس از بروز خطا به رفع آن می پردازد. ابزارهای ترجمه می توانند با ایجاد محیطی تعاملی رفع خطاها را قبل از انتقال به برونداد ممکن سازند. مهمترینِ این ابزارها, سامانه های حافظه ترجمه هستند که از متون موازی همترازشده استفاده می کنند. فنون همترازسازی خودکار مورد استفاد...
15 صفحه اولپیکره متنی تطبیقی فارسی-انگلیسی حوزه تخصصی فاوا
در زبان شناسی، پیکره انبارهای از داده های متنی است. در این مقاله، تمرکز ما بر طراحی و ساخت خودکار پیکره دو زبانه فارسی-انگلیسی است. ما نرم افزاری برای ساخت پیکره طراحی کرده ایم که هزینه و زمان ساخت پیکره را کاهش می دهد؛ به علاوه نرمافزار ارائه شده قابلیت مدیریت پیکره را نیز برای کاربران فراهم می کند. در این مقاله، روشی برای ترازبندی جمله های پیکره فارسی تخصصی حوزه فاوا و جملات انگلیسی پ...
متن کاملارائه رهیافتی جدید برای تولید پیکره موازی انگلیسی-فارسی
در این پژوهش، برای اولین بار مدلی ترکیبی برای تراز بندی جملات، جهت ساخت پیکره های موازی انگلیسی-فارسی ارائه شده است. در حالت کلی چارچوب روش پیشنهادی، غیر وابسته به زبان های مبدأ و مقصد بوده و از آن می توان برای تولید پیکره های موازی، برای هر جفت زبان دیگر، نیز استفاده کرد. نتایج بدست آمده از پیاده سازی ها نشان می دهد که بکار بردن ویژگی های زبانی و غیر زبانی ، عملکرد سیستم را تا حد قابل قبولی به...
15 صفحه اولتماس زبان های فارسی و ترکی آذربایجانی و تأثیر آن بر ساخت جملات مرکّب ترکی آذربایجانی
چکیده تحقیق حاضر قصد دارد تا تغییرات نحوی حاصل از تأثیر زبان فارسی بر جملات مرکب زبان ترکیآذربایجانی را مطالعه نماید. دادهها از منابع معتبر مرتبط با زبان ترکیآذربایجانی و تعاملات زبانی گویشوران ترکیآذربایجانی مناطق مرکزی استان اردبیل (30 نفر) گردآوری شد. تحلیل دادهها نشان داد که وامگیری جزغیرفعلی و حروفربط زبان فارسی باعث شده است تا گویشوران ترکیآذربایج...
متن کاملزبان وتغییرپذیری: بررسی جملات استفهامی انگلیسی و فارسی
پژوهشگرانی که در زمینه تعییرات زبانی فعالیت دارند معتقدند که زبانها در تمام سطوح تغییر را تجربه می کنند که این تغییر طرح مند به نظر می رسد. هدف پژوهش حاضر بررسی نحوه تغییری است که در جملات استفهامی انگلیسی و فارسی رخ می دهد. این تحقیق بالاخص به بررسی طرح مند و نظام دار بودن این تغییر می پردازد. بدین منظور برای جمع آوری اطلاعات یک نسخه اصلاح شده از کار-نقشه ادینبورگ (edinburgh map task) مورد است...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
نوع سند: پایان نامه
وزارت علوم، تحقیقات و فناوری - دانشگاه الزهراء - دانشکده فنی
کلمات کلیدی
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023